Laboratorio 1

Rafael Ortega 123972 \ Eduardo Moreno 151280 \ Yedam Fortiz 119523

Data profiling - EDA

¿Cuántas variables tenemos?

¿Cuántas observaciones tenemos?

¿Cuántas observaciones únicas tenemos por variable?

Transformaciones que deberán realizarse más adelantte:

Geo Point object --> split y dos float
Geo Shape object
consumo_total_mixto float64
anio int64 --> Eliminar
nomgeo object --> Categorica
consumo_prom_dom float64
consumo_total_dom float64
alcaldia object --> Categorica
colonia object --> Categorica
consumo_prom_mixto float64
consumo_total float64
consumo_prom float64
consumo_prom_no_dom float64
bimestre int64 --> Categorica
consumo_total_no_dom float64
gid int64 --> Categorica
indice_des object --> Categorica

¿Cuántas variables numéricas tenemos?

¿Cuántas variables de fecha tenemos?

¿Cuántas variables categóricas tenemos?

¿Cuántas variables de texto tenemos?

Genera el profiling de cada variable (propio)

Perfilamiento general

Perfilamiento por variable

Genera el profiling de cada variable (Pandas profiling)

¿Cuántas alcadías tienes? ¿Cuántos nomgeo tienes? ¿Identificas algún error?

¿Qué conocemos ahora de este set de datos por variable?


Profiling numérico:

Profiling categórico:

Profiling fecha:

No hay variables de tipo fecha.


Profiling texto:

No hay variables que debieran estar como de tipo texto, sino más bien categóricas.


Comentarios para FE

Transformar las variables a formato estándar: minúsculas, sin espacios en blanco, sin signos de puntuación.

Agregar la variable latitud y longitud.

Pasar la variable latitud y longitud a numérica -si no la tomó como numérica-.

Eliminar la columna geo_point -una vez que creaste la variable latitud y longitud.

Eliminar la columna geo_shape.

Cambiar a minúsculas las columnas alcaldía, colonia e indice_des.

hecho con las funciones anteriores

Volver a correr el proceso de identificación de variables numéricas, categóricas, texto y fechas.

Variables numéricas

Variables categóricas

Variables de texto

Variables de tipo fecha

Genera el data profiling por variable (puedes ocupar el paquete pandas-profiling de pandas)

Perfilamiento propio --> General

Perfilamiento propio --> Por variable

Genera el profiling de cada variable (Pandas profiling)

Queremos generar el data profiling de estos datos.

GEDA

Análisis de ceros

Los siguientes histogramas muestran la gran densidad en niveles bajos (ceros y/o cercanos a dicho valor), además de que se logra apreciar que todas las variables poseen colas pesadas, pues hay valores muy altos para todas las variables.

En la siguiente sección se realizará un análisis detallado en aquellas observaciones donde no hubo medición en el consumo de agua, es decir, en donde el consumo fue cero para el periodo en cuestión.

Los valores que contienen puros ceros en las variables numéricas corresponden aproximadamente al $3.4\%$ de los datos, se preguntará a cliente porqué tenemos observaciones sin consumo de agua para dichos periodos y lugares:

Cabe mencionar que no todas las colonias se encuentran en cada una de las alcaldías, lo cual puede confundir al lector, esta tabla muestra la cantidad de ceros que cada una de las colonias de distintas alcaldías. Nótese que las alcaldías de Iztapalapa y Tlalpan contienen una mayor cantidad de ceros, esto se debe a que son las que contienen más colonias. La siguiente tabla muestra la cantidad de colonias por alcaldía.

En la tabla izquierada se muestra la cantidad de colonias que tiene cada alcaldía para aquellas observaciones que tienen ceros en todas las variables numéricas, mientras que en la tabla derecha se muestran los datos completos. Los datos no son afectados por este suceso de manera uniforme, pues se esperaría que se mantuviera el orden de las alcaldías en relación a la cantidad de colonias que poseen. Hay colonias que son más afectadas que otras, por lo que habrá que aclarar con cliente a qué se debe este fenómeno.

Se observa que hay un patrón: independientemente de la alcaldía, si hay ceros en el nivel popular, entonces hay ceros en el nivel bajo y viceversa, por lo que son estos $2$ ídices de desarrollo que son más afectados por la cantidad de ceros, lo cual no es para sorprenderse, debido a que son los que presentan mayor densidad. Sin embargo, para el caso de Tlalpan, se incluye el índice medio, donde se concluye que los 3 niveles son afectados, sin importar la densidad.

Las colonias presentan la misma cantidad de ceros a lo largo del semestre, de lo que concluímos que la presencia de ceros en las observaciones no se debe a un tema temporal, sino que esto se presenta de manera recurrente cada periodo.

Observamos que se pueden observar ciertas zonas en donde hay una mayor agrupación de datos, esto se debe a la densidad en las zonas, no a que haya un fallo en la medición.

Conclusión:

Otros análisis gráficos

Análisis de correlacion

La mayoría de las correlaciones están cercanas al cero, por lo que no resultan muy importantes.

Gráficas de las distribuciones en los datos








¿Existen diferencias en los datos entre bimestres?








Comparación entre variables

En esta sección, se encontrarán las dispersiones de cada indice con respecto a ciertas combinaciones de variables.













Combinaciones podrían explicar:

elemento y elemento x indices
latitud consumo_total_mixto todos
longitud consumo_total_mixto todos
consumo_total_dom consumo_total todos
consumo_total_dom latitud todos
consumo_total_dom longitud todos
consumo_total consumo_prom todos
consumo_total consumo_total_no_dom todos
consumo_total latitud todos
consumo_total longitud todos
consumo_prom latitud todos
consumo_prom longitud todos
latitud longitud todos

Consideraciones:

Preguntas

Ética

Representatividad de todos los inmuebles en la CDMX para que puedan participar equitativamente en programas de subsidios